查看原文
其他

银行行业基于华为 OceanStor 18000F V5 高端存储的两地三中心容灾解决方案设计

twt社区 twt企业IT社区 2022-07-03
【摘要】某银行目前的业务系统中,新建北京、上海两地三中心架构,将在原北京、上海数据中心部署3台高端闪存以满足在北京生产中心、同城灾备中心及上海数据中心老旧应用项目的生产替换改造、灾备需求。本文详述了具体的设计,包括容量、性能、数据一致性、数据保护、扩展性等方案设计,可供同业参考。

【作者】徐东升,七年的系统集成及IT服务、数据库运维经验,精通主流硬件厂商的硬件设备包括(IBM Power小型机),华为、IBM、EMC以及HDS厂商的存储设备,精通存储区域网络(SAN)的配置和调优。精通IBM PowerVM虚拟化和VMware vSphere虚拟化以及VSAN等技术。参与过多个客户(包括银行)的容灾建设,包括容灾方案制定、容灾建设实施等;集成实施、维护等方面经验丰富,熟悉传统IT基础架构、虚拟化架构、云架构。


1.项目背景

1.1项目概述

随着银行信息化程度的不断提高,信息系统在金融行业的关键业务中扮演着越来越重要的角色,企业对IT系统的依赖程度越来越高,信息系统业务中断会导致巨大经济损失、影响品牌形象并可能导致重要数据丢失。因此,保证业务连续性是信息系统建设的关键。业务系统的连续性和灾难保护的重要性也越来越突出。

在某银行目前的业务系统中,新建北京、上海两地三中心架构。本次项目将在原北京、上海数据中心部署3台高端闪存以满足在北京生产中心、同城灾备中心及上海数据中心老旧应用项目的生产替换改造、灾备需求。

1.2 建设要求

  • 合规性要求

银行核心存储项目,属于国内大型商业银行的重要IT基础设施建设,意义和影响重大,必须满足国家及行业监管机构的合规性要求,本次项目建设需满足包括但不限于以下国家和行业规范:

  • 银监会《商业银行业务连续性监管指引》

  • 银监会《商业银行数据中心监管指引》

  • 银监会《商业银行信息科技风险管理指引》

  • 银监会《银行业重要信息系统突发事件应急管理规范(试行)》

  • 银监会《银行业金融机构信息科技外包风险监管指引》

  • 人民银行 《银行业信息系统灾难恢复管理规范》

  • 人民银行 《关于进一步加强银行业金融机构信息安全保障工作的指导意见》

  • 人民银行 《关于加强银行数据集中安全工作的指导意见》

  • 国家质量监督检验检疫总局《信息系统灾难恢复规范》(GB/T 20988-2007)

  • 国务院信息化工作办公室《信息系统灾难恢复规范指南》

  • 中办发27号文《国家信息化领导小组关于加强信息安全保障工作的意见》

  • 工信部《2006-2020年国家信息化发展战略》【2006年5月8日】

  • 知识产权要求

本次项目建设所涉及的方案和产品需要完全自主的知识产权,对核心技术拥有研发、维护、升级、技术支持的完整能力。避免出现局部或上下游产业的技术垄断和产权风险。

  • 兼容性要求

银行存储资源池建设属于现有数据中心内资源池的扩容性质,必须考虑在网运行的所有IT基础环境的兼容性。根据目前银行数据中心运行情况,本次存储资源池的建设至少需要兼容如下环境和设备技术:

  • Brocade、Cisco等光纤交换机设备。

  • AIX、Redhat Linux、Windows等操作系统。

  • Power VM、VMWare、Hyper-V等虚拟化平台。

  • Oracle、DB2等数据库软件主流版本。

  • VMware VAAI等虚拟化接口认证。

  • 数据迁移的要求

本次数据中心存储资源池建设必然涉及老旧存储或者老旧系统间的数据迁移。需至少支持异构第三方存储设备连接及存储层面在线数据迁移功能,并提供迁移必要的技术支持

  • 设备高可用的要求

本次存储池建设属于行内最核心业务系统,T1A和T1B级,因此所采用设备应为金融行业广泛使用并长时间验证过的高端全闪存储。存储系统不应存在任何部件的单点故障,可用性不能低于99.999%。

  • 环境要求

该用户生产数据中心/同城灾备数据中心位于北京,异地位于上海数据中心。目前主要的业务系统包括业务应用和数据库Oracle,DB2等数据库系统以及AIX、UNIX和Linux等操作系统,前端业务系统通过数据库或者操作系统存取数据。详细情况如下:

1)应用系统现状

该银行目前已经建成四级容灾系统。其中,核心应用系统为T1级,建设两地三中心架构。

各应用系统容灾等级现状如下表所示:
表1  某银行IT系统现状信息表

2)网络系统现状

北京生产/同城灾备机房:

当前已建设同城灾备中心,两中心距离约40km。中间链路租用运营商裸光纤链路,并自购DWDM波分设备进行网络连接。

北京生产中心与上海数据中心:

异地灾备中心与测试中心复用,且已建成使用多年,生产中心与异地灾备中心通过租用WAN链路,带宽根据业务需要动态申请和调整。

北京同城灾备中心与上海数据中心:

同城和异地灾备中心之间实现数据的异地容灾复制,目前暂未建设容灾网络,后续根据业务容灾发展需要会适时进行相关网络资源的申请和建设。


2.设计原则

基本原则

通过对该银行本次存储资源池建设需求的了解,结合金融行业业务系统的应用特点,本次方案设计建设过程遵循如下原则进行:

  • 可用性原则 

  • 灾备系统的故障不影响生产系统的运行,不会大幅度影响业务处理能力。

  • 系统器件选择要考虑能支持7×24小时连续长时间大压力下工作;

  • 系统具有充分的冗余能力、容错能力,如支持双活动控制器,满足高可靠性需求,至少达到99.999%可用性。

  • 系统具有专业的技术保障体系以及数据可靠性保证机制;

  • 确保系统具有高度的安全性,提供安全的登录和访问措施,防止系统被攻击;

  • 异常掉电后不丢失数据,供电恢复后自动重新启动并自动恢复正常连接;

  • 系统支持运行状态管理和技术保障体系。

  • 先进性原则 

  • 系统必须严格遵循国际标准、国家标准、国内信息行业和金融行业的规范要求;

  • 需符合存储技术以及IT行业的发展趋势,所选用的产品型号已规模上量;

  • 所有的系统处于先进的技术水平,确保较长时间内技术上不落伍;

  • 系统的处理能力要达到业内领先,对于业务的使用要留有一定的余量,以满足后续升级的需求;

  • 对工作环境要求较低,环境适应能力强。

  • 开放性原则 

  • 系统必须支持国际上通用的标准网络存储协议、国际标准的应用开放协议;

  • 与主流服务器之间保持良好的兼容性;

  • 兼容各主流操作系统、卷管理软件及应用程序;

  • 可以与第三方管理平台、云平台集成,提供给用户定制化的管理维护手段;

  • 与现有IT系统、软硬件系统兼容并可无缝替换和升级;

  • 系统必须支持国际上通用的标准管理协议。

  • 易维护性原则 

  • 系统支持简体中文,通俗易懂,操作方便、简单;

  • 系统具有充分的权限管理,日志管理、故障管理,并能够实现故障自动报警;

  • 系统设备安装使用简单,无需专业人员维护;

  • 系统容量可按需要在线扩展,无需停止业务;

  • 系统功能扩充需要升级时,支持不中断业务升级;

  • 支持WEB管理方式或集中管理方式。

  • 扩展性原则 

考虑银行未来五至八年数据中心、业务系统和存储系统的整体规划,既能满足短期建设需求,又能满足该银行中远期规划方向。

  • 系统易于扩充;

  • 系统选择标准化的部件,利于灵活替换和容量扩展;

  • 系统设计遵守各种标准规定、规范;

  • 可以与第三方管理平台集成,提供给用户定制化的管理维护手段;

  • 具备各主流厂家设备的扩展接入能力。

  • 经济性原则

综合考虑集中存储系统的性能和价格,最经济最有效地进行建设,性能价格比在同类系统和条件下达到最优。

  • 绿色性原则

  • 满足环保与节能的要求,噪声低、能耗低、无污染;

  • 必须选用无铅器件;

  • 有节能降耗的技术手段;

  • 具备环境管理认证,符合环保规定,包材可回收,支持重复利用。


3.设计方案

两地三中心的容灾方式是当前金融行业容灾建设的最高配置和主流方案。

通过建设近距离的数据中心(同城数据中心)获得接近于零数据丢失的数据保护,通过建设较远距离的数据中心(异地数据中心)获得远距离的数据保护,避免区域性的灾难导致业务无法恢复。在出现小概率的大范围的灾难时,如自然灾害地震,造成同城灾难备份中心与生产中心同时不可用,应用可以切换到异地灾难备份中心。通过实施经过日常灾难演练的步骤,应用可在业务容许的时间内,在异地的灾难备份中心恢复,保证业务连续运行。但异地恢复通常会丢失少量的数据。

3.1 方案概述

根据该银行现有两地三中心容灾解决方案现状:一个生产中心、一个同城灾难备份中心、一个异地灾难备份中心。生产中心的数据同步地复制到同城灾难备份中心,同时,生产中心的数据异步地复制到异地灾难备份中心。

相比仅建立同城灾难备份中心或异地灾难备份中心,“两地三中心”的方式结合两者的优点,能够适应更大范围的灾难场景,对于小范围的区域性灾难和较大范围的自然灾害,都能够通过灾难备份系统较快地响应,尽可能保全业务数据不丢失,实现更优的RPO和RTO。所以,两地三中心容灾解决方案得到了广泛的应用。

常见两地三中心解决方案有级联组网(同步+异步,异步+异步)方案(即“A->B,B->C”组网)、并联组网(同步+异步,异步+异步)方案(即“A->B,A->C”组网)和双活组网(双活+异步)方案(即“A<->B,B->C”组网)以及环形组网方案(即“A->B,A->C”组网)。
结合目前数据中心间网络现状本次设计采用华为公司高端全闪存储OceanStor 18000F V5及其并联同步+异步的方案。如此设计有如下优势:
1.该银行目前同城灾备中心和上海数据中心间容灾网络资源暂时不能满足,不易进行级联式组网。
2.北京同城灾备机房和异地上海数据中心的故障或者演练或者计划内停机等操作,不会影响另一个数据中心的容灾能力。
3.北京同城的容灾能力可以达到RPO=0的最高水平。
4.异地上海数据中心既可以节省远距离网络带宽,又可以尽量减少对北京生产机房性能的影响。
5. 与现网运维能力相匹配,兼容目前自动化切换流程框架,方案稳健且未来扩展性好。
考虑未来,进一步加强容灾能力的建设,基于目前并联同步+异步的高端全闪存方案,未来可无缝扩展为双活+异步并联方案以及双活+异步环形方案。
其中,双活+异步并联方案可以将同城切换RTO可以缩短为“零”,可以大大提高业务连续性能力。
双活+异步环形方案可以在避免并联的A中心、串联的B中心故障时导致的数据保护无法持续的问题,进一步提高数据保护能力。

3.2 同步 + 异步的并联

并联组网的两地三中心容灾架构
如上图,在北京生产中心部署磁盘阵列A;在同城灾备中心部署磁盘阵列B,两个数据中心之间通过FC链路实现互联,生产中心的磁盘阵列A与同城灾备中心磁盘阵列B建立同步远程复制,将阵列A的数据实时同步到阵列B;在上海灾备数据中心,部署磁盘阵列C,通过生产中心与异地灾备中心的IP链路,实现生产中心的磁盘阵列A与异地灾备中心磁盘阵列C建立异步远程复制,异步地将数据同步到磁盘阵列C。
在同城灾备中心和异地灾备中心部署容灾管理软件,实现对3个数据中心的统一容灾管理。容灾管理软件可以展示两地三中心容灾方案物理拓扑和业务逻辑拓扑,并且支持在同城灾备中心以及异地灾备中心一键式容灾测试以及一键式容灾恢复。
所选择产品为华为OceanStor 18000F V5高端全闪存,同步复制为华为HyperReplication/S技术,异步复制为HyperReplication/A技术。

3.3 容量方案设计

根据该银行目前T1-A和T1-B容灾等级应用系统容量的统计,只有最高等级的T1-A需要同城容灾,另有部分业务容量仅需要异地灾备,因此设计一套“两地三中心”容灾组合,北京生产数据中心和上海灾备数据中心设计600TB容量,北京同城灾备数据中心为匹配最高等级容灾需求的业务设计300TB容量。
如下表所示:
主要配置安装/使用地点备注
可用600TB有效容量(按RAID6 6D+2P计算)

北京-

生产数据中心

生产
可用300TB有效容量(按RAID6 6D+2P计算)

北京-

同城灾备中心

同城灾备
可用600TB有效容量(按RAID6 6D+2P计算)

上海-

异地灾备中心

异地灾备
本次两地三中心方案所选用的华为OceanStor 18000F V5系列高端存储无论在同步复制、异步复制还是未来可能会使用到的双活技术上,均实现了LUN级别的最小保护粒度。即无论两地三中心还是仅同城容灾、仅异地容灾、仅双活保护都可以仅做LUN级别保护。因此,一套两地三中心架构可以灵活实现多种容灾保护方式和级别。
该银行目前高端存储容量需求的增长每年呈现超线性增长的趋势,有效降低存储成本,提高容量利用率应该是方案重点考虑的方面。本次采用了高端全闪存产品,存储资源池性能得到大幅提升,因此,两地三中心方案设计采用阵列重删压缩技术,在性能满足业务系统所需不降低的前提下,缩减扩充有效容量,至少达到1.5:1的数据缩减效果,提升容量利用率50%以上。
为进一步提升容量利用率,解决存储分配率高,但使用率低的问题,本次设计采用精简配置的存储供给方式,容量用时分配,存储容量利用率不再受到分配率的限制。而全闪存带来的超强性能,完全抵消了由于用时分配机制带来的细微性能消耗。
根据该银行目前的性能和容量需求比例,本次方案推荐了3.84TB的SSD硬盘,600TB容量仅需两个标准机柜位,可以很好的降低数据中心空间和供电制冷成本。

3.4 性能方案设计

支持缓存分区功能或支持QoS策略管理

3.5 数据一致性设计

该银行使用的Oracle和DB2等大中型数据库应用,数据、日志、修改信息等存储在磁盘阵列的不同LUN中,缺少其中一个LUN的数据,都将导致其他LUN中的数据失效,无法继续使用。如果需要同时对这些LUN进行远程容灾,那么就要考虑如何保持多个远程复制对的数据一致性。本次采用的OceanStor 18000F V5高端全闪存存储系统的两地三中心架构中,提供一致性组功能来保证多个容灾保护LUN对之间数据的一致性。
一致性组是多个3DC LUN的集合,可以确保单个存储系统内,主机在跨多个LUN进行写操作时数据的一致性。同步复制只能在分裂、异常断开状态下设置从LUN可读写接管主机业务,一致性组场景要求PAIR成员从LUN接管业务时和主LUN一样保证不同成员LUN之间的数据写依赖性(例如数据库场景,数据卷对日志卷有依赖,则要求日志卷数据比数据卷新)。因此要求一致性组改单写流程需要确保不同LUN间双写IO的依赖性,使得一致性组断开后从端数据仍然能够保证数据间的写依赖,从而保证容灾备份数据的完整性和可用性。
用户创建一致性组以后,可以将多个远程复制对添加到一致性组中。一致性组可以进行分裂、同步、主从切换、设置从LUN可写等操作,在进行这些操作时,一致性组的所有成员对保持步调一致。当遇到链路故障时,一致性组的所有成员对会一起进入异常断开状态。当远程复制故障排除后恢复正常状态时再重新进行数据的同步,从而保证从站点灾备阵列数据的可用性。

3.6 数据保护设计

该银行本次数据中心存储资源池建设,除基本的两地三中心方案外,日常运维使用过程中,还需要进行必要的逻辑数据保护以及数据副本的克隆,以备查询、分析、测试、恢复等使用,因此本次还设计了数据克隆和快照的可选附加功能方案。即华为OceanStor 18000F V5的HyperSnap技术和HyperClone技术构建的数据保护方案。
本地数据保护:北京生产、同城灾备数据中心可在存储阵列上进行定时快照或克隆,保留多份副本,一旦业务在运行时发生误操作或病毒入侵等逻辑错误场景,可以通过快照回滚功能,快速实现业务恢复。
异地数据保护:仅有同城的逻辑错误保护机制对于某些逻辑故障场景是无法恢复业务的,例如:生产业务出现了逻辑错误,业务还未启动异地恢复时,同城两个数据中心都发生故障。虽然这是一种小概率的组合故障场景,但是如果能在这种场景下恢复业务系统的正常运行,那么就可以避免在这种小概率组合故障场景下业务的恢复,避免损失。推荐上海数据中心采用OceanStor存储的虚拟快照功能实现异地数据逻辑保护。这些快照并不是完整的源卷副本,而是由位图和最新数据变化量空间构成,可以极大地节省了空间。
数据副本获取:华为OceanStor 18000F V5的数据克隆副本也可用作查询或分析系统的并行数据处理所用。

3.7 方案扩展性设计

根据该银行新存储资源池的建设,所承载的业务量将逐渐加大,重要性和影响程度也将越来越高,因此,后续方案可靠性的进一步提升,也是本次项目设计的重点考虑方面。
针对提升RTO和灾难后进一步系统健壮性的两个方面有如下三个方向的扩展方案
1.同步+异步环形方案,此方案将避免出现生产数据中心灾难时,同城灾备数据中心接替生产数据中心后,上海异地灾备数据中心无法对同城灾备数据中心进行持续容灾保护风险。华为OceanStor 18000F V5两地三中心方案支持同步+异步环形保护技术,因此,在后续具备同城灾备数据中心和上海异地灾备数据中心间网络通讯时,可进一步提升系统健壮性,实现当前并联同步+异步方案到同步+异步环形方案的扩展。
2.双活+异步并联方案,此方案将提升生产数据中心和同城灾备数据中心两中心间灾难时的切换效率。当前同步复制技术无法做到RTO=0的双活目标。为进一步提升灾难时银行核心业务的无中断切换能力,华为OceanStor 18000F V5两地三中心方案支持双活+异步并联保护技术,再后续应用、运维级业务部署等条件具备时,可实现当前主备同城中心到双活中心的扩展。双活技术将采用华为HyperMetro阵列免网关双活技术。
3.双活+异步环形方案,由双活+异步并联方案还可以进一步扩展为双活+异步环形方案,兼顾上述方案1、2的优势。
  • 同步+异步环形方案架构
同步+异步的环形两地三中心容灾架构
在生产中心部署磁盘阵列A;在同城灾备中心部署磁盘阵列B,两个数据中心之间通过FC链路实现互联,生产中心的磁盘阵列A与同城灾备中心磁盘阵列B建立同步远程复制,将磁盘阵列A的数据实时同步到磁盘阵列B;在异地灾备中心,部署磁盘阵列C,与生产中心阵列A、同城灾备中心阵列B同时建立异步远程复制关系,将磁盘阵列A的数据定时地同步到阵列C。当生产中心阵列A故障时,同城中心阵列B数据继续定时同步到阵列C。
  • 双活+异步并联方案架构
HyperMetro+异步的两地三中心容灾架构
在生产中心A和生产中心B位于同城,可通过裸光纤或波分设备实现FC网络互联,也支持通过10GE网络互联。生产中心A和生产中心B同时对外提供业务,HyperMetro不仅实现数据实时双向镜像,而且保证任何数据中心阵列故障,对上层业务透明切换,业务不中断。在异地灾备中心,部署磁盘阵列C,与生产中心A或B任意磁盘阵列建立异步远程复制,将双活镜像的磁盘阵列数据周期性的同步到磁盘阵列C。
在生产中心B和异地灾备中心部署容灾管理软件,实现对双活+异步复制统一容灾管理。容灾管理软件可以展示两地三中心容灾方案物理拓扑和业务逻辑拓扑,并且支持在异地灾备中心一键式容灾测试以及一键式容灾恢复。
  • HyperMetro+异步环形方案架构
HyperMetro+异步的环形两地三中心容灾架构
在生产中心A和生产中心B位于同城,可通过裸光纤或波分设备实现FC网络互联,也支持通过10GE网络互联。生产中心A和生产中心B分布部署一台华为OceanStor存储,利用华为OceanStor存储的HyperMetro特性,实现两数据中心同时对外提供业务,实现数据实时双向镜像,而且保证任何数据中心阵列故障,对上层业务透明切换,业务不中断。在异地灾备中心,部署阵列C,与生产中心A和生产中心B任意阵列建立异步远程复制,将双活阵列的数据周期性的同步到阵列C。当生产中心A或生产中心B阵列故障时,生产数据继续定时同步到阵列C。

3.8 方案亮点

华为两地三中心解决方案的亮点和优势如下:
  • 性能高

    华为OceanStor 18000F V5存储具备业界领先的性能表现,

  • 绿色节能

    华为OceanStor 18000F V5高端全闪存,相同容量下较传统高端节省超过70%的机房空间;节省超过65%的能耗和制冷消耗。

  • 利用率高

    数据缩减采用在线缩减,实时生效,更高效更节省空间。

  • 数据高可靠

    除标准容灾能力外,还可以做到数据本地、异地的多重逻辑保护。

  • 全系列存储复制技术互通

    华为全系列存储产品都采用统一的存储操作系统平台,高、中、低端阵列之间,闪存和全闪存阵列都可建立远程复制关系。用户在产品选型时,可以根据业务需要选择匹配的异地灾备中心磁盘阵列,显著提升容灾建设投入产出比。

  • 多种3DC方案,支持不同业务要求的RTO和RPO

    双活、同步复制、异步复制灵活组合,串联、级联、环形多种组网方式。基于Cache多时间戳的异步远程复制,最小支持3s的复制周期。同步复制则RPO=0。双活则RPO=0,RTO=0.

  • 兼容性全面

    支持所有主流的网络、IT硬件及软件,不会对用户使用习惯造成冲击,无需变动所有业务系统组件即可使用。支持异构虚拟化能力,不仅可以异构接管所有主流存储设备,还可以对接管设备进行无中断的数据迁移和灾备保护。

  • 容灾业务和拓扑可视化管理

    华为容灾管理软件OceanStor BCManager支持可视化展示两地三中心的物理拓扑和业务逻辑拓扑。并且支持一键式容灾测试和切换,支持用户定制脚本一键恢复备用业务系统,简化灾备系统的管理和维护。华为OceanStor系列存储也提供API接口可供各类第三方网管、运管、灾备管理等系统对接。

点击文末阅读原文,可以到原文下留言交流

觉得本文有用,请转发、点赞或点击“在看”,让更多同行看到


 资料/文章推荐:


欢迎关注社区 “双活”技术主题 ,将会不断更新优质资料、文章。地址:https://www.talkwithtrend.com/Topic/71


下载 twt 社区客户端 APP


长按识别二维码即可下载

或到应用商店搜索“twt”


长按二维码关注公众号

*本公众号所发布内容仅代表作者观点,不代表社区立场

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存